🚫Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков
Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.
— Простые методы: среднее, медиана, мода. — Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).
2️⃣Удаление строк с пропусками
— Допустимо, если доля пропущенных значений очень мала.
3️⃣Использование моделей, устойчивых к пропускам
— Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.
📌Вывод
— Пропуски надо обрабатывать до масштабирования. — Лучший подход — импутация на обучении, затем масштабирование по тем же правилам. — Не смешивайте статистики между train и test — это критично для честной оценки модели.
🚫Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков
Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.
— Простые методы: среднее, медиана, мода. — Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).
2️⃣Удаление строк с пропусками
— Допустимо, если доля пропущенных значений очень мала.
3️⃣Использование моделей, устойчивых к пропускам
— Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.
📌Вывод
— Пропуски надо обрабатывать до масштабирования. — Лучший подход — импутация на обучении, затем масштабирование по тем же правилам. — Не смешивайте статистики между train и test — это критично для честной оценки модели.
The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.
The S&P 500 slumped 1.8% on Monday and Tuesday, thanks to China Evergrande, the Chinese property company that looks like it is ready to default on its more-than $300 billion in debt. Cries of the next Lehman Brothers—or maybe the next Silverado?—echoed through the canyons of Wall Street as investors prepared for the worst.
Библиотека собеса по Data Science | вопросы с собеседований from hk